我们提出了一个新的移动混合视觉网络家族,称为Iformer,重点是优化移动应用程序的延迟和准确性。iformer有效地将卷积的快速局部表示能力与自我注意的有效全局建模能力整合在一起。局部交互是从转换标准卷积网络(即,Convnext,设计一个更轻巧的移动网络。我们新引入的移动调制方面删除了MHA中的存储密集型操作,并采用了有效的调制机制来提高动态全球代表性。我们进行全面的实验,表明iFormer优于各种任务的轻量级网络。值得注意的是,Iformer在Imagenet-1k上的TOP-1精度令人印象深刻,在iPhone 13上仅1.10毫秒的延迟,超过了最近提议的MobilenetV4在类似延迟限制下。此外,我们的方法在下游任务中显示出显着改善,包括可可对象检测,实例分割和ADE20K语义分割,同时仍在这些方案中的高分辨率输入中保持低潜伏期的延迟。代码和型号可在以下网址提供:https://github.com/chuanyangzheng/sibroler。
主要关键词
![arxiv:2501.15369v1 [cs.cv] 2025年1月26日PDF文件第1页](/bimg/6/6196064272bb9438b4ff8e0f161b3201d8976c41.webp)
![arxiv:2501.15369v1 [cs.cv] 2025年1月26日PDF文件第2页](/bimg/d/de24f0d15b65c71f0a2a05206b7437ac2ed102fe.webp)
![arxiv:2501.15369v1 [cs.cv] 2025年1月26日PDF文件第3页](/bimg/0/035b79e1ba02654c08c3df7d65d35ffb0e60a568.webp)
![arxiv:2501.15369v1 [cs.cv] 2025年1月26日PDF文件第4页](/bimg/a/a5c95025d0df7afcfdd89fd17a8dff83f8447dea.webp)
![arxiv:2501.15369v1 [cs.cv] 2025年1月26日PDF文件第5页](/bimg/e/ee09df5e13f8f4bbcd8613822691506172cc5f5b.webp)
